234 research outputs found

    Clustering incrémental et méthodes de détection de nouveauté : application à l'analyse intelligente d'informations évoluant au cours du temps

    Get PDF
    Série Environnements et services numériques d'information Bibliographie en fin de chapitres. Notes bibliogr. IndexNational audienceLearning algorithms proved their ability to deal with large amount of data. Most of the statistical approaches use defined size learning sets and produce static models. However in specific situations: active or incremental learning, the learning task starts with only very few data. In that case, looking for algorithms able to produce models with only few examples becomes necessary. The literature's classifiers are generally evaluated with criteria such as: accuracy, ability to order data (ranking)... But this classifiers' taxonomy can really change if the focus is on the ability to learn with just few examples. To our knowledge, just few studies were performed on this problem. This study aims to study a larger panel of both algorithms (9 different kinds) and data sets (17 UCI bases)

    Mesures de qualité de clustering de documents : Prise en compte de la distribution des mots clés

    Get PDF
    National audienceNos travaux sur une nouvelle méthode de classification non supervisée (Germen) nous ont amenés à nous interroger sur la qualité des résultats obtenus. Le problème est d'estimer si une méthode de clustering est 'meilleure' qu'une autre pour le type de données que nous traitons (données textuelles). Dans un premier temps, après avoir fait un état de l'art des méthodes existantes, nous avons appliqué quelques indices de qualité aux résultats de clustering issus de notre algorithme Germen ainsi que d'autres algorithmes communément utilisés. Ces indices de qualité ne permettant pas de sélectionner la meilleure partition, nous avons développé une nouvelle série d'indices basés sur la distribution des mots-clés. Nous présentons et discutons les résultats obtenus ainsi que les réflexions engagées pour faire évoluer l'évaluation de classifications non supervisées sur des textes. 1 Introductio

    Une métrique de sélection de variables appliquée à la centralité et à la détection des rôles communautaires

    Get PDF
    National audienceLa F-Mesure de trait est une métrique de sélection de variables statis-tique sans paramètres qui a montré de bonnes performances pour la classification , l'étiquetage de clusters ou encore la mesure de qualité des clusters. Dans cet article, nous proposons d'évaluer son utilisation dans le contexte des graphes de terrain et de leur structure communautaire pour bénéficier de son système sans paramètres et de ses performances bien évaluées. Nous étudions donc sur des graphes synthétiques réalistes les corrélations qui existent entre la F-Mesure de trait et certaines mesures de centralité, mais surtout avec des mesures destinées à caractériser le rôle communautaire des noeuds. Nous montrons ainsi que cette mesure est liée à la centralité des noeuds du réseau, et qu'elle est particulièrement adaptée à la mesure de leur connectivité au regard de la structure de communautés. Nous observons par ailleurs que les mesures usuelles de détection des rôles communautaires sont fortement dépendantes de la taille des communautés alors que celles que nous proposons sont par définition liées à la densité de la communauté, ce qui rend les résultats comparables d'un réseau à un autre. Ceci offre donc la possibilité d'applications comme le suivi temporel de la structure des communautés. Enfin, le processus de sélection appliqué aux noeuds permet de disposer d'un système universel, contrairement aux seuils fixés auparavant empiriquement pour l'établissement des rôles communautaires

    Combining symbolic and numeric techniques for DL contents classification and analysis

    Get PDF
    Colloque avec actes et comité de lecture. internationale.International audienceThe goal of this article is to prove that the mixture of different classification and mining techniques coming from so different areas such as the numeric and the symbolic worlds can combine their mutual advantages in order to produce a significant enhancement of the overall classification and retrieval performance in a Data Mining or Information Retrieval context

    Analyse des évolutions et des interactions entre domaines scientifiques : GRAFSEL, association de la sélection de variables et de la représentation graphique

    Get PDF
    International audienceCet article présente l'application d'une nouvelle méthode de sélection de variables pour l'analyse de l'évolution et des interactions entre domaines scientifiques. L'interrogation de bases de données bibliographiques fournit un corpus de publications scientifiques dans différents domaines. Chaque domaine scientifique est considéré comme une classe obtenue à partir d'un processus d'apprentissage automatique, qu'il soit supervisé ou non, et chaque document est représenté par un sac de mots. Il est alors possible de sélectionner les mots les plus significatifs de chaque classe (domaine). Nous représentons ensuite les relations mots-classes par un graphe dont les arêtes sont pondérées par une fonction de contraste. Cette méthode nous permet de discriminer entre les mots spécifiques à chaque domaine et ceux qui sont pluridisciplinaires. En outre, l'analyse conjointe de plusieurs périodes de temps nous permet également d'apprécier parallèlement l'évolution des domaines scientifiques

    Inference Bayesian Network for Multi-topographic neural network communication: a case study in documentary data

    Get PDF
    Colloque avec actes et comité de lecture. internationale.International audienceIn this paper we present an original approach consisting in assimilating the behavior of the MultiSOM model, whose core model represents a significant extension of the classical Kohonen SOM model, to the one model of a Bayesian inference network. This approach is used both for validating the MultiSOM inter-map communication principles and for enhancing the accuracy of the probabilistic correlation computation mode that is already provided by the model In a complementary way, our approach also led us to prove that a neural multi-map model provided with unsupervised learning might well behave as a Bayesian inference network in which the estimation of posterior probabilities becomes a simple process only using prior similarity measures

    Efficient Knowledge Extraction using Unsupervised Neural Network Models

    Get PDF
    This paper presents a new approach whose aim is to extent the scope of numerical models by providing them with knowledge extraction capabilities. The basic model which is considered in this paper is a multi-topographic neural network model. The powerful features of this model are its generalization mechanism and its mechanism of communication between topographies. These two mechanisms allow rule extraction to be performed whenever a single viewpoint or multiple viewpoints on the same data are considered. The association rule extraction is itself based on original quality measures which evaluate to what extent a numerical classification model behaves as a natural symbolic classifier such as a Galois lattice

    Knowledge Extraction from Unsupervised Multi-topographic Neural Network Models

    Get PDF
    This paper presents a new approach whose aim is to extent the scope of numerical models by providing them with knowledge extraction capabilities. The basic model which is considered in this paper is a multi-topographic neural network model. One of the most powerful features of this model is its generalization mechanism that allows rule extraction to be performed. The extraction of association rules is itself based on original quality measures which evaluate to what extent a numerical classification model behaves as a natural symbolic classifier such as a Galois lattice. A first experimental illustration of rule extraction on documentary data constituted by a set of patents issued form a patent database is presented
    • …
    corecore